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摘 要 : 针对 轻 量 级 的 深度 神经 网 络 MobileNet 会 减少 分 类 准确 率 的 问题 ， 将 空洞 卷 积 核 引入 MobileNet 模型 中 的 
某 一 卷 积 层 中 ， 提 出 一 种 基于 局 部 感受 野 扩张 的 D-MobileNet 模型 。 模 型 根据 空洞 卷 积 核 所 在 位 置 的 不 同 分 为 三 种 
结构 ， 在 不 增加 参数 数量 的 同时 能 够 扩大 该 层 卷 积 核 的 局 部 感受 野 ， 提 高 分 类 精度 。 实 验 在 Caltech-101 数据 集 、 
Caltech-256 数据 集 以 及 图 宾 根 大 学 动物 分 类 数据 库 上 进行 ， 结 果 表 明 ，D-MobileNet 模型 可 获得 比 MobileNet 更 好 
的 分 类 准确 率 ， 最 多 可 以 提高 2%。 
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Image classification method based on D-MobileNet model 


Wang Wei, Zou Ting, Wang Xini 
(School of Computer & Communication Engineering, Changsha University of Science & Technology, Changsha 410114, 
China) 


eg Abstract: Aiming at the problem that lightweight deep neural network MobileNet can reduce classification accuracy, this 
paper proposed an D-MobileNet (dilated convolution MobileNet) model based on local receptive field expansion by 
introducing dilated convolution kernel into a convolution layer of MobileNet model. The models consisted of three 
structures according to the location of the dilated convolution kernel. Without increasing the number of parameters, it could 
expand the local receptive field of the layer convolution kernel and improve the classification accuracy. This paper carried 
out the experiments on Caltech-101 database, Caltech-256 database and Uebingen animals with attributes database. The 
results show that the D-MobileNet model can achieve better classification accuracy than that of MobileNet, and can Improve 
the classification accuracy by up to 2%. 
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0 引言 限 的 便携 式 移动 设备 上 。 
本 针对 上 述 问题 的 一 种 可 行 的 解决 方案 是 对 深度 神经 网 络 
计算 机 图 像 分 类 利用 计算 机 对 图 像 进行 分 析 ， 把 图 像 归 ”进行 压缩 与 加 速 。 在 尽量 不 影响 精度 的 前 提 下 ， 减 少 网 络 参 
为 若干 类 别 中 的 某 一 类 别 ， 来 代替 人 的 视觉 判读 ， 是 计算 机 ” 数 和 计算 量 ， 减 少 耗 电 ， 使 完整 的 深度 神经 网 络 能 应 用 到 
筷 。 视觉 领域 的 研究 热点 之 一 。 大 多 数 图 像 分 类 的 研究 主要 集中 ” 些 有 实时 性 要 求 和 低 内 存 的 便携 式 设备 中 。Denil 等 人 图 证 明 
人 一 在 图 像 特征 提取 和 分 类 算法 上 面 ， 特 征 的 好 坏 对 分 类 非常 关 了 深度 神经 网 络 中 的 参数 存在 大 量 的 元 余 ， 且 这 些 元 余 的 参 
键 ， 而 传统 的 图 像 特 征 如 SIFT、HOG 等 特征 都 是 经 过 手工 数 对 分 类 精度 并 没有 很 大 的 影响 ,Denton 等 人 图 通过 SVD 奇 
设计 的 ,因此 有 时 难以 满足 要 求 。 卷 积 神经 网 络 具有 自学 习 、 异 值 矩 阵 分 解 找 到 一 个 合适 的 低 秩 和 矩阵 来 估计 深层 CNNs 的 
自 适应 和 自 组 织 能 力 ， 能 利用 已 知 类 别 的 图 像样 本 集 的 先 验 言 息 参 数 ， 该 方法 需要 较 多 的 计算 成 本 ， 也 需要 大 量 的 重新 
知识 ， 自 动 提取 特征 ， 可 避免 传统 图 像 分 类 方法 中 复杂 的 特 。 ”训练 来 达到 收敛 。Han 等 人 大通 过 参数 前 枝 将 训练 好 的 网 络 
征 提 取 的 过 程 ， 提 取 到 的 特征 表达 能 力 强 ， 分 类 效率 高 。 中 不 重要 的 连接 删除 ， 对 剩 下 的 参数 再 进行 训练 和 量化 ， 然 
深度 卷 积 神经 网 络 在 计算 机 视觉 领域 ， 如 图 像 分 类 国 、 后 对 量化 后 的 参数 进行 霍 夫 曼 编 码 ， 进 一 步 降 低压 缩 率 ， 该 
目标 追踪 男 、 目 标 检测 图 ， 以 及 图 像 分 割 画 等 方面 都 取得 了 很 ”方法 需 手动 调 超 参数 。Hinton 等 人 一 采用 知识 精 饮 的 方法 对 
好 的 效果 。 如 Krizhevsky 等 人 在 2012 年 ImageNet 大 规模 视 网 络 模型 进行 压缩 ， 将 一 个 性 能 好 但 存在 较 多 元 余 的 复杂 网 
觉 识 别 挑战 分 类 任务 使 用 约 有 6000 万 参数 8 层 的 AlexNet 务 。 络 中 有 用 信息 提取 出 来 迁移 到 一 个 更 小 更 简单 的 网 络 上 ， 使 
模型 取得 了 冠军 ，Simonyan 等 人 使 用 的 16 层 的 VGG 国 、 以 ”简单 网 络 与 复杂 网 络 有 相近 的 性 能 。 除 此 之 外 , 很 多 相关 研 
Inception 为 基本 结构 的 GoogleNe{ 固 、 为 改善 梯 度 消失 问题 引 究 通 过 改进 网 络 模型 来 压缩 网 络 。 SqueezeNet 园 是 以 fire 
入 残 差 结构 的 ResNet 古 等 也 都 取得 了 成 功 。 但 由 于 深度 卷 积 。 module 为 基础 结构 的 网 络 模 型 、MobileNets 国 是 以 深度 可 分 
神经 网 络 模型 本 身 是 一 种 结构 密集 型 和 计算 密集 型 的 模型 ， 离 卷 积 核 (depthwise separable filters) 为 基本 结构 的 网 络 模 
庞大 的 参数 数量 和 计算 量 、 大 量 的 内 存 访 问 和 CPU/GPU 资 “型 、ShuffleNet 是 的 基本 结构 是 在 残 差 结构 的 基础 上 进行 改 
源 计 算 导 致 的 巨大 的 耗 电 量 使 得 模型 难以 应 用 到 硬件 资源 有 进 ， 引入 了 分 组 逐 点 卷 积 (group pointwise convolution ) 和 
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录用 定稿 王 威 ， 等 : 基于 局 部 感受 野 扩 张 D-MobileNet 模型 的 图 像 分 类 方法 


通道 重 排 (channel shuffle) 操作 。 
轻 量 级 网 络 虽然 参数 或 计算 量 减少 了 ， 但 是 分 类 准确 率 
也 有 相应 的 下 降 。 为 了 减少 计算 量 同时 又 兼顾 分 类 精度 ， 本 
文 提 出 一 种 基于 局 部 感受 野 扩张 的 D-MobileNet 网 络 结构 ， 
将 空洞 卷 积 核 引 入 到 MobileNet 网 络 中 ， 利 用 空洞 卷 积 核 在 
不 

大 


曾 加 参数 的 前 提 下 可 增 大 卷 积 核 感受 野 这 一 优点 ， 获 取 更 
的 局 部 感受 野 ， 提 高 MobileNet 的 分 类 精度 。 


1 ” 卷 积 神经 网 络 基本 理论 


1.1 卷 积 神经 网 络 
作为 一 种 自动 化 特征 提取 的 机 器 学 习 模 型 ， 卷 积 神经 网 
络 是 最 早 应 用 于 各 个 领域 的 深度 学 习 网 络 模型 。 卷 积 神经 网 
络 通 过 局 部 感受 野 和 权 值 共享 减少 权 值 的 数量 ， 降 低 网 络 模 
型 的 复杂 度 ， 从 而 避免 一 般 深度 学 习 模 型 中 由 于 参数 过 多 证 
引起 的 过 拟 合 问题 。 与 此 同时 ， 卷 积 神经 网 络 可 将 图 像 直接 
作为 网 络 的 输入 ， 避 免 传 统 图 像 分 类 方法 中 复杂 的 特征 提 
过 程 ， 并 且 对 图 像 平移 、 比 例 缩放 等 具有 高 度 不 变性 。 
卷 积 神经 网 络 一 般 由 卷 积 层 、 池 化 层 和 全 连接 层 组 成 
如 图 1 所 示 。 图 像 经 一 层 或 多 层 卷 积 层 和 池 化 层 进行 特征 
取 ， 将 最 后 一 层 卷 积 层 输出 的 所 有 特征 图 转换 成 一 维 向 量 
了 全 连接 ， 最 后 利用 分 类 器 进行 分 类 。 网 络 通过 反 向 传播 调 
的 
不 
不 


也 


> 


SN 


节 权 重 参数 ， 并 利用 分 类 的 结果 与 期 望 输出 的 结果 之 间 总 
方差 达到 最 小 这 一 目标 进行 优化 。 卷 积 神经 网 络 每 层 的 ; 
元 按 宽 度 、 高 度 以 及 深度 三 维 排列 ， 其 中 宽度 和 高 度 指 
元 尺寸 的 大 小 ， 而 深度 指 输 入 图 片 的 通道 数 或 输入 特征 图 的 


S4 特 征 图 : 
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1 特征 图 ， 
6@28x28 ”5S2 特 征 图 : 
图 1 卷 积 神经 网 络 基本 结构 示意 图 


Fig.1 Basic structure of convolution neural network 

卷 积 层 通过 卷 积 运算 来 提取 图 像 中 不 同 的 特征 ， 该 层 包 

人 $ 若 干 组 可 学 习 的 参数 ( 卷 积 核 )， 是 整个 卷 积 网 络 的 核心 。 
前 层 的 卷 积 核对 输入 的 特征 图 像 进行 卷 积 运算 ， 可 提取 局 
竺 征 ， 得 到 特征 图 ， 再 经 过 激活 函数 进行 非 线 性 操作 ， 可 
到 非 线性 的 特征 映射 图 像 。 卷 积 神经 网 络 的 局 部 感受 野 和 
值 共享 思想 在 卷 积 层 中 体现 ， 网 络 中 大 部 分 的 计算 量 也 集 
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Ey Ss 加 1024 分 类 数 
点 卷 积 。 深度 可 分 离 深度 可 分 离 全 局 平均 个 过 
卷 积 卷 积 池 化 。 全 连接 


到 2 ”MobileNet 网 络 结构 图 

Fig.2 Architecture of mobilrnet 

深度 可 分 离 卷 积 核 由 深度 卷 积 核 (depthwise convolution 
filter) 和 点 卷 积 核 (point convolution filter) 组 成 , 其 中 深度 卷 积 


核 在 每 个 输入 通道 上 进行 单个 卷 积 ， 点 卷 积 核 用 一 个 1x1 的 
卷 积 将 深度 卷 积 的 输出 值 进行 线性 组 合 。 这 样 ，N 个 


DkxDgkxM 的 标 
深度 卷 积 核 
蔡 代 ,一 个 标准 
而 深度 可 分 离 卷 积 将 输入 分 为 两 层 ， 层 
用 于 合并 。 


E 卷 积 核 (图 3(a)) 可 以 由 M 个 DxxDxx1 的 
)) 和 N 个 1x1xM 的 点 卷 积 核 
的 卷 积 滤 波 器 是 将 输入 组 合成 一 组 新 的 输出 ， 
于 过 滤 ， 另 一 层 
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a EE 人 


本 ==* 


(a) 标 准 卷 积 核 (standard convolution filter) 
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(b) 深 度 卷 积 核 (depthwise convolution filter) 
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(c) 点 卷 积 核 (point convolution filter) 
图 3 标准 卷 积 核 和 深度 可 分 离 卷 积 核 


Fig.3 Standard convolutional filters and depthwise separable filters 
2 D-MobileNet 模型 


标准 的 MobileNet 模型 一 直 都 采用 3x3 的 小 尺寸 卷 积 核 。 
这 样 昌 然 可 以 减少 计算 量 ， 但 是 在 前 几 层 特征 图 分 辨 率 较 高 
的 情况 下 ， 小 尺寸 的 卷 积 核 的 局 部 感受 野 太 小 ， 捕 捉 不 到 好 
的 特征 。 若 换 成 较 大 的 卷 积 核 ， 则 又 会 增加 参数 数量 和 计算 
量 。 因 此 ， 可 以 考虑 在 前 面 几 层 卷 积 层 中 ， 用 扩张 率 为 2 的 


党 蕉 内 讨 芭 


在 卷 积 层 。 
卷 积 层 之 后 为 池 化 层 ， 也 叫 下 采样 层 。 该 层 通过 下 采样 
操作 ， 在 一 定 大 小 的 区 域内 ， 用 一 个 特定 的 值 作为 输出 ， 
通过 去 掉 特征 映射 图 中 不 重要 的 样本 点 来 降低 输入 维 
度 ， 进 一 步 减少 运算 量 ， 增 加 网 络 对 图 像 平移 、 旋 转 等 变化 
。 常 见 的 池 化 操作 有 最 大 池 化 和 平均 池 化 。 

卷 积 层 + 池 化 层 的 结构 可 提高 网 络 的 鲁 棒 性 ， 卷 积 神经 
网 络 通过 多 层 卷 积 层 可 得 到 更 深层 次 特征 图 。 随 着 层 数 增加 ， 
学 到 的 特征 也 越 全 局 化 。 最 后 学 习 到 的 全 局 特征 映射 转换 成 
句 量 连接 全 连接 层 ， 再 连接 分 类 层 。 网 络 中 大 部 分 的 参数 量 
在 全 连接 层 。 
1.2 MobileNet 模型 

MobileNet 是 一 种 流线型 的 架构 ， 它 使 用 深度 可 分 离 的 
卷 积 来 构建 轻 量 级 的 深度 神经 网 络 ， 为 移动 和 崩 入 式 视 觉 应 


中 
ul 


用 提供 的 一 种 高 效 模型 一 。 MobileNet 的 基本 结构 为 深度 可 


分 离 卷 积 核 (Depthwise Separable Filters ) ， 如 所 示 。 


空洞 卷 积 代替 标准 卷 积 。 这 个 模型 称 为 扩张 卷 积 MobileNet 
模型 ， 即 D-MobileNet 模型 。 
2.1 空洞 卷 积 

空洞 卷 职 核 画 (dilated convlution ) 又 叫做 带 孔 卷 积 核 ， 
是 在 上 采样 滤波 器 非 零 值 中 间 插 入 零 值 的 一 种 卷 积 核 。 空 洞 
卷 积 最 先 应 用 在 图 像 分 割 中 。 图 像 分 割 需要 得 到 与 原 输入 图 
片 相 同 尺寸 的 图 片 ， 而 传统 的 深度 神经 网 络 中 池 化 层 会 减少 
特征 图 的 空间 分 辩 率 。 为 了 生成 有 效 的 密集 特征 图 ，Chen 等 
人 将 全 卷 积 神经 网 络 去 掉 后 面 几 层 最 大 池 化 层 ， 同 时 ， 为 了 
取得 相同 大 小 的 感受 野 而 引入 空洞 卷 积 。 这 样 既 能 避免 池 化 
层 减 少 特征 映射 图 空间 分 辨 率 ， 还 能 与 池 化 层 一 样 增加 感受 
野 国 . 
带 孔 卷 积 核 就 是 通过 在 卷 积 核 中 非 零 数 值 中 间 插 入 零 值 
扩大 该 卷 积 核 的 感受 野 ， 如 图 4 所 示 。 其 中 ，(a) 表 示 标 准 的 
3x3 卷 积 核 的 感受 野 ，(b) 表 示 扩 张 率 为 2 时 不 加 填充 时 3x3 
卷 积 核 的 感受 野 为 Sx5,(c) 表 示 扩 张 率 为 3 时 不 加 填充 时 3x3 


录用 定稿 王 威 ， 
卷 积 核 的 感受 野 为 7x7。 由 此 可 见 ， 空 洞 卷 积 可 扩大 卷 积 核 
的 感受 野 ， 且 不 会 增加 卷 积 核 的 参数 数量 。 
嘱 | 国 国 | 画面 | 面 
| 图 图 | 
加 加 | ea 
| 加 加 本国 “| 
(a (b) (9 
1 空洞 卷 积 核 示意 芭 


Fig.4 Schematic diagram of dilated convolutional filter 


2.2 D-MobileNet 模型 
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2.3 D-MobileNet 性 能 分 析 

对 于 一 个 标准 的 卷 积 层 ， 假 设 输入 Rw 的 特征 图 7， 其 
中 丸 wm 分 别 代表 特征 图 的 高 、 宽 和 输入 特征 图 的 通道 数 。 
7 与 Rw (s 代表 卷 积 核 的 尺寸 ， 代表 输出 特征 图 的 通道 
数 ) 的 卷 积 核 进行 无 填充 的 卷 积 操作 ， 可 得 到 Roem 
的 输出 特征 图 O，O=K*1。 


Me; 


OO 万 => > Kv i DI(y+tu-l,xtv—l,i) 


i=] uwv=l 


其 中 :0G,x) 代表 第 j 个 特征 图 中 点 0 的 值 ，K(uvi 办 代 


感受 野 是 指 卷 积 神经 网 络 每 一 层 输出 的 特征 图 中 每 个 元 
素 在 输入 图 像 上 映射 的 区 域 大 小 。 层 数 越 往 后 ， 


表 第 7 个 卷 积 核 中 第 i 个 通道 上 点 (wv) 上 的 值 ，7Gy,xi) 代表 
第 个 输入 通道 上 点 G,») 的 值 。 由 式 (1) 可 知 ， 得 到 一 个 输出 


越 大 ， 越 接近 全 局 感受 野 。 本 文通 过 扩张 局 部 感受 野 来 提高 
MobileNet 的 分 类 精度 ， 所 以 增加 感受 野 的 层 数 应 靠近 输入 
层 。 根 据 空洞 卷 积 核 所 在 位 置 的 不 同 ， 提 出 了 三 种 改进 的 网 
络 模型 ， 分 别 为 DI-MobileNet 、D2-MobileNet 以 及 
D3-MobileNet。 

a) D1-MobileNet。D1-MobileNe 将 MobileNet 的 第 一 层 
卷 积 层 步 长 设置 为 1， 并 使 用 扩张 率 为 2 的 空洞 卷 积 核 代 蔡 
标准 的 卷 积 核 。 同 时 ， 为 了 增加 最 少 的 计算 量 ， 将 第 二 层 深 
度 可 分 离 卷 积 层 中 的 深度 卷 积 层 步 长 设置 为 2, 其 他 层 不 变 。 
这 样 ， 与 MobileNet 相 比 较 ， 由 于 第 一 层 的 卷 积 步 长 设置 为 
了 1， 第 一 层 卷 积 层 输出 的 特征 图 大 小 由 112x112 变 为 
224x224， 贸 所 示 。 


深度 可 分 离 卷 积 


| i SN 
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| 1 32 pp 3 lio24 sa] 
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空 浊 郑 积 深度 卷 机 点 郑 积 次席 分 高 We 


D1-MobileNet 网 络 结构 图 
Fig.5 Architecture of Dl-mobilenet 
b) D2-MobileNet。 在 MobileNet 的 第 二 层 深 度 可 分 离 卷 


需要 sxsxm 次 乘法 运算 ， 总 计算 量 为 
sxsxmx(h-s+Dx(w-s+Dxn， 总 的 参数 数量 为 sxsxmxn 。 


D-MobileNet 在 标准 卷 积 层 引 入 空洞 卷 积 核 ， 输 入 同样 
的 特征 图 7， 用 扩张 率 为 > 同 尺 寸 大 小 的 卷 积 核 K 进行 的 无 
填充 的 空洞 卷 积 操作 ， 可 得 到 R909-p0o-9r0% 的 输出 


特征 图 Oa。 
O90) = Kmi,)) 


i=] uwv=l 


IT(y+ut+(u—l)(r DD)-—1l,x+v+(v—D(r—D) -1,) 
2 可 知 ， 空 洞 卷 积 层 的 总 计算 量 为 
sxsxmx(h—s—(s—Dr-D+Dx(w-s—(s—-D(r-D+Dxn ， 参数 数 
量 为 sxsxmxn 。 在 无 填充 的 卷 积 操作 条 件 下 ,扩张 率 +>1 的 
空洞 卷 积 的 计算 量 要 小 于 标准 的 卷 积 ， 参 数 数量 一 样 ， 但 空 
洞 卷 积 的 感受 野 比 标准 卷 积 大 ;在 有 填充 的 卷 积 操作 条 件 下 ， 
输出 特征 图 尺寸 均 为 R% ， 两 者 的 计算 量 和 参数 数量 都 

样 。 


D-MobileNet 在 深度 可 分 离 卷 积 层 引入 空洞 卷 积 核 ， 输 
入 特征 图 经 过 深度 卷 积 层 得 到 Oue， 再 经 过 点 卷 积 层 ， 最 后 
可 得 到 Ror-re-Do-DrDxwre-Do-DrbDmw 的 输 出 特征 图 0。 


O49,%) = Kluv,)) 


u,v=] 


*J(yt+ut+(u—Dr—D-l,xt+v+(v -Dr—) -1,)) 


积 层 的 深度 卷 积 层 中 ， 用 扩张 率 为 2 的 空洞 卷 积 核 代 蔡 标 ; 


其 中 : OiQ,% 办 代表 第 j 个 特征 图 中 点 G7» 的 值 ，KQwv,j) 代 


的 卷 积 核 ， 其 他 层 不 变 。 该 方法 不 增加 任何 计算 量 和 参数 数 
量 ， 也 不 改变 任何 一 层 的 输出 特征 图 大 小 ， 妇 所 示 。 
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1 6 D2-MobileNet 网 络 结构 图 
Fig.6 Architecture of D2-mobilenet 
c) D3-MobileNet 将 MobileNet 的 第 一 层 卷 积 层 步 长 设置 
为 1， 用 扩张 率 为 2 的 空洞 卷 积 核 代替 标准 的 卷 积 核 ， 并 在 
第 一 层 的 批 次 规范 化 层 是 (Batch Normalization) 后 加 入 步 长 
为 2 的 池 化 层 ， 其 他 层 不 变 ， 丸 所 示 。 


深度 可 分 离 卷 积 
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卷 积 池 化 
D3-MobileNet 网 络 结构 图 
Fig.7 Architecture of D3-mobilenet 


表 第 j 个 卷 积 核 上 点 (u,v) 的 值 ， oe 个 输入 通道 
上 点 (的 值 。 深 度 可 分 离 卷 积 的 总 计算 量 为 
(sxs+n)x(h—s—(s—Dr-D+Dx(Ww—-s—( -Dr-D+)xm ， 总 的 参 
数 数量 J 由 此 可 见 ， 深 度 可 分 离 卷 积 层 相对 
， 参 数 减 少量 为 


sxsxm+mxn _1 四 1 


于 未 卷 职 


SXSxXmxn n s 


| 算 量 减少 为 
(sxs+n)x(h—s—(s -Dr D+D)xw—s—(s -Dr—1)+1) 
Sxsxnx(h—st+l)x(w—s+l) 


同 理 ， 在 进行 有 填充 的 深度 可 分 离 空 s 洞 卷 积 时 ， 计 算 量 


局- 


地 


(sxs+mxmxhxw_1 1 


Sxsxmxnxhxw n s? 
的 输出 特征 图 尺寸 可 知 ， 扩 张 率 为 > 卷 积 
核 大 小 为 SxS 的 深度 卷 积 核 K 的 感受 野 相当 于 卷 积 核 
Cxs-r+DxCxs-r+D 的 感受 野 ， 可 达到 扩大 感受 野 的 目的 ， 
而 且 不 会 增加 参数 量 和 计算 量 


3 ”实验 及 结果 分 析 


实验 采用 TensorFlow 框架 下 的 Python 语言 ， 模 型 在 配 
有 NVIDIA TITAN GPU 的 服务 器 上 实现 .实验 采用 RMSprop 
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优化 算法 进行 优化 。 RMSprop 是 一 种 自 适应 学 习 率 方法 ， 
可 调整 学 习 率 ， 初 始 学 习 率 为 0.1。 根 据 数据 集训 练 样本 数 
司 ， 本 文 设置 不 同 的 epoch 数 来 降低 学 习 率 。 权 重 初 
Xavier 初始 化 方法 , 该 方法 可 根据 每 层 输入 个 数 和 
个 数 来 决定 参数 随机 初始 化 分 布 范 围 ， 是 一 种 均匀 分 
布 , 偏差 初始 值 全 为 零 。 实验 共 训 练 5 万 批 次 ， 每 批 样本 数 
为 64， 均 采用 ReLU 作为 激活 函数 。 为 了 证 明 D-MobileNet 
模型 的 有 效 性 ， 实 验 将 D-MobileNet 模型 与 MobileNet 模型 
在 Caltech-101 呈 、 图 宾 根 大 学 动物 分 类 数据 库 和 
Caltech-256 辆 数据 集 上 的 分 类 结果 进行 比较 。 
3.1 Clatech-101 数据 集 
Caltech-101 数据 集 总 共有 9 145 张 图 像 ， 
中 包含 101 个 物体 类 别 和 一 个 背景 类 ， 每 类 图 像 的 数量 在 
40~800 个 ， 为 Caltech-101 数据 集中 的 图 片 事例 。 在 网 
络 训练 时 , 首先 将 数据 集中 的 图 片 进行 标签 , 然后 充分 打 乱 ， 
随机 选取 其 中 的 1500 张 图 片 作 为 测试 集 , 剩 余 的 图 片 作为 训 


并 
下 下 
4 


蕾 中 
六 到 
光 


盐 


k 102 类。 其 


练 集训 练 网 络 。 


= 


Caltech-101 数据 集 图 片 事 侦 
Fig.8 Picture instances in the Caltech-101 dataset 

3.2 Clatech-256 数据 集 
Caltech-256 数据 集 在 Caltech-101 数据 集 的 基础 上 增加 


漆 


| 


了 图 像 类 别 和 每 类 图 像 的 数量 ， 总 共 30607 张 图 像 ， 257 
类 。 其 中 包含 256 个 物体 类 别 和 一 个 背景 类 ， 每 类 图 片 最 少 
80 张 ， 最 多 827 张 〈 背 景 类 ) ， 为 Caltech-256 数据 集 
中 的 图 片 事例 。 在 训练 网 络 时 ， 将 数据 集中 每 张 图 片 进行 标 
签 , 然后 打 乱 , 随机 抽取 其 中 的 3060 张 图 片 作为 测试 集 ， 剩 


余 的 图 片 作为 训练 集训 练 网 络 。 


Fig.9 Picture instances in the Caltech-256 dataset 

3.3 ”图 宾 根 大 学 动物 分 类 数据 库 

图 宾 根 大 学 动物 分 类 数据 库 (Uebingen animals with 
attributes) 总 共有 50 种 动物 类 别 ， 共 30 475 张 图 片 。 由 于 类 
别 中 的 图 片 量 差 别 大 ， 实 验 选取 其 中 最 多 的 并 且 类 别 数目 差 
别 不 大 的 21 种 动物 类 别 作为 数据 集 ， 共 有 22 742 张 图 片 ， 
每 类 图 片 数量 在 850~1600， 图 10 为 图 宾 根 大 学 动物 数据 集 
中 的 图 片 事例 。 在 训练 网 络 前 ， 对 数据 集中 的 图 片 进行 标注 
并 随机 抽取 2 000 张 图 片 作 为 测试 集 ， 其 余 图 片 作为 训练 集 
训练 网 络 。 


3.4 实验 结 


: 基于 局 部 感受 野 扩 张 D-MobileNet 模型 的 图 像 分 类 方法 


吉 果 分 析 
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为 了 验证 


改进 的 有 效 性 ， 


的 D1-Mobilenet 
的 D2-MobileNet 让 
的 D3-Mobilenet 记 


分 类 方法 在 Caltech-101 数据 集 上 了 


由 


为 相应 的 分 类 正确 


率 数 值 。 


图 


像 分 类 ， 第 二 组 3 
图 像 分 类 , 第 三 组 
图 像 分 类 , 第 四 组 
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将 实验 分 成 4 组 在 相同 运行 环 
境 和 超 参 数 数值 的 前 提 下 进行 结果 分 析 和 比较 。 
准 的 MobileNet 神经 网 络 结构 进行 
经 网 络 结构 进行 
经 网 络 结构 进行 
经 网 络 结构 进行 区 


第 一 组 用 标 


Caltech-101 数据 集 上 的 准确 率 % 

Table 1 Accuracy rate on Caltech-101101 dataset (%) 
迭代 次 数 30000 35000 40000 45000 50000 
MobileNet 76.73 76.6 76.6 76.8 76.6 

D1_MobileNet 77.4 77.47 77.53 77.4 77.47 
D2_MobileNet 77.67 77.8 T7173 77.67 77.73 
D3_MobileNet 78.6 78.6 78.53 78.53 78.73 
0.79 
0.785 一 
0.78 
4 一 
775 一 人 一 人 
0.77 
5 
765 
0.76 
30000 35000 40000 45000 50000 


一 一 MobileNet 一 全 一 D1_MobileNet —®— D2_MobileNet 一 加 一 D3_MobileNet 


Fig. 
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型 可 以 提高 
D3_MobileNet 
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模型 


类 精度 为 78.73%。 


4 精度 提 


Caltech-101 数据 但 


上 的 准确 率 


Accuracy rate on Caltech-101 dataset 


其 准确 率 均 已 达到 平衡 ， 且 改进 的 三 种 模型 


可 知 ,四 种 分 类 模型 在 迭代 30000 次 以 后 ， 


其 准确 率 均 比 


高 0.8%~2% 左 右 。 其 中 ,D1_ 
0.87%，D2_MobileNet 模型 可 以 


高 最 多 ， 


MobileNet 模 


提高 1.13%， 


可 以 提高 2.13%， 最 终 分 


国 是 四 种 分 类 方法 在 Caltech-256 数据 集 上 取得 的 分 


Caltech-256 数据 


为 相应 的 分 类 正确 率 数 值 。 
集 上 的 准确 率 % 
Table 2 Accuracy rate on Caltech-256 


dataset (%) 
迭代 次 数 30000 35000 40000 45000 C50000 
MobileNet 64.48 64.58 64.55 64.67 64.52 
D1_MobileNet 65.77 65.74 65.87 65.9 65.87 
D2_MobileNet 66.1 66.06 65.94 65.84 65.94 
D3_MobileNet 64.97 64.9 64.87 65.19 65.16 


0.665 
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一 全 一 MobileNet 


到 12 Caltech-256 数据 集 


一 全 一 D1_MobileNet 


35000 


可 知 ， 


后 ， 其 


确 率 均 已 ,达到 平衡 ， 


均 比 MobileNet 模型 提高 0.5%~1.5% 左 右 。 其 中 ， 
高 1.35%, D3_MobileNet 模型 可 以 


D1_MobileNet 


模型 
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提高 0.64%， D2_MobileNet 模型 精度 提高 最 多 ， 
1.42%， 最 终 分 类 精度 为 65.94%。 

图 国生 于 入 分 类 方法 在 Uebingen Animals 数据 集 上 取得 
的 分 类 正确 率 的 比较 ， 表 3 为 相应 的 分 类 正确 率 数值 。 

表 3 Uebingen Animals(21 类 ) 数 据 集 上 的 准确 率 % 


Table 3. Accuracy rate on Uebingen animals(21) dataset 


可 以 提高 


: 基于 局 部 感受 野 扩张 D-MobileNet 模型 的 图 像 分 类 方法 


友 代 次 数 30000 35000 40000 45000 50000 


MobileNet 91.6 91.6 91.6 91.55 91.6 
D1_MobileNet 92.45 92.45 292.3 92.35 92.4 
D2_MobileNet 92.0 92.05 92.05 92.0 92.0 
D3_MobileNet 92.85 92.75 92.8 92.7 92.8 


0.925 a 
92 人 
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915 
0.91 
0.905 
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—e— MobileNet 一 上 D1_MobileNet 一 一 D2_MobileNet 一 四 一 D3_MobileNet 


图 13 Uebingen Animals(21 类 ) 数 据 集 上 的 准确 率 

Fig.13 Accuracy rate on Uebingen animals(21) dataset 

图 13 和 表 3 可 知 ,四 种 模型 在 迭代 30000 次 时 均 达 到 
平衡 ， 准 确 率 变化 不 大 ， 且 改 ; td a 
MobileNet 高 0.5%~1.2% 左 右 。 其 中 D1_MobileNet 模型 最 
提高 0.8%,D2_MobileNet 模型 最 ep 
模型 的 准确 率 提 高 最 多 ， 达 到 1.2%， 最 终 的 分 类 精度 为 
92.8% 。 


4 ”结束 语 


深度 学 习 的 内 存 密集 型 和 高 度 计算 密集 型 特点 使 其 在 应 
用 设备 上 的 应 用 受到 限制 ， 而 对 网 络 模型 进行 压缩 与 加 速 ， 
会 损失 分 类 精度 。 本 文 将 空洞 卷 积 与 特殊 的 轻 量 级 神经 网 络 
模型 MobileNet 结合 ， 在 不 增加 网 络 参 数 的 前 提 下 提高 分 类 
精度 ， 使 该 轻 量 级 网 络 更 好 的 应 用 于 低 内 存 设备 中 。 实 验 结 
果 表 明 改 进 后 的 D-MobileNet 在 实验 数据 集 上 有 更 好 的 分 类 
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